热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

幻象_<技术向;修正昨天的爬取教程,并介绍一个插件

篇首语:本文由编程笔记#小编为大家整理,主要介绍了<技术向;修正昨天的爬取教程,并介绍一个插件相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了<技术向;修正昨天的爬取教程,并介绍一个插件相关的知识,希望对你有一定的参考价值。



昨天的代码有一部分需要修正一下,完整代码应该是这样:


from bs4 import BeautifulSoup
import re
import requests
url = "http://stuu.scnu.edu.cn/articles?paged="
def get_page(url):
   wb_data = requests.get(url)
   soup = BeautifulSoup(wb_data.text,lxml)
   titles = soup.select("div.bloglist-container.clr > article > div.home-blog-entry-text.clr")
   texts = soup.select("div.bloglist-container.clr > article > div.home-blog-entry-text.clr > p")
   imgs = soup.select("div.bloglist-container.clr > article > a > div > img")

   for title,text,img in zip(titles,texts,imgs):
      data =
         "标题":title.get_text(),
         
"摘要":text.get_text(),
         
"图片":img.get(data-original)
     

      print(data)

def getmorepage(start,end):
   for i in range (start,end):
       get_page(url+str(i))

getmorepage(1,10)


主要是将这条代码:

 "图片":img.get(src)

修改成:

 "图片":img.get(data-original)


如果我们仔细观察网页的代码,我们会看到其实它真实的链接在data-original里。如图(点击可以放大):



<技术向修正昨天的爬取教程,并介绍一个插件_加载 />



这样改后就能成功得到我们想要的信息啦:


<技术向修正昨天的爬取教程,并介绍一个插件_jquery_02 />


那之前那个结果是怎么回事呢?

这是因为这个网站的图片显示是一种Lazyload的方法,这是一个用来缓冲加载图片的方法,能够避免用户一次性加载太多图片耗费太多流量。这就是为什么昨天我们直接爬取src得到的是一张空图片。


Lazyload在WORDPRESS里是一个插件,实际上是用js写的一个脚本。如果是我们自己搭设的网站想要使用的话可以直接上网下载它的js文件,当然还要jquery库。


下面讲如何在自己搭建的网站上使用这个插件。

先把这个js文件和jquery.js放置到网站根目录的js文件夹下。


首先第一步,加载它们:




<script src="jquery.js" type="text/Javascript">script>
<
script src="jquery.lazyload.js" type="text/Javascript">script>


第二步,定义图片结构:


<img src="img/grey.gif" data-original="img/example.jpg" width="750" heigh="500">


第三步,触发并生效:


$("img.lazy").lazyload();


这样就能实现lazyload的基本功能,当然使用中你还会发现不少问题。

这些问题就需要网站开发者自行去解决了。




欢迎关注微信号:幻象客


<技术向修正昨天的爬取教程,并介绍一个插件_jquery_03 />


推荐阅读
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 本文介绍了如何在C#应用程序中有效隐藏SQLCMD命令行窗口,确保程序运行时不会弹出黑色命令提示符窗口。 ... [详细]
  • 本文详细介绍如何利用已搭建的LAMP(Linux、Apache、MySQL、PHP)环境,快速创建一个基于WordPress的内容管理系统(CMS)。WordPress是一款流行的开源博客平台,适用于个人或小型团队使用。 ... [详细]
  • Windows 环境下重启 MySQL 服务的方法
    本文详细介绍了在 Windows 操作系统中如何正确地重启 MySQL 数据库服务,包括常见的权限问题及其解决方案。 ... [详细]
  • 降噪耳机与普通耳机的差异解析
    对于不太了解耳机分类的朋友来说,区分降噪耳机和普通耳机可能有些困难。本文将详细对比这两类耳机在降噪技术、效果及佩戴舒适度等方面的差异,并提供选择建议。 ... [详细]
  • PHP 过滤器详解
    本文深入探讨了 PHP 中的过滤器机制,包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时,详细介绍了各种过滤器的用途和用法。 ... [详细]
  • 本文详细介绍了 iBatis.NET 中的 Iterate 元素,它用于遍历集合并重复生成每个项目的主体内容。通过该元素,可以实现类似于 foreach 的功能,尽管 iBatis.NET 并未直接提供 foreach 标签。 ... [详细]
  • 蒟蒻林荫小复习——莫比乌斯反演
    莫比乌斯反演积性函数:对于函数f,如果有质数p,q,使得f(p)f(q)f(pq),则函数f为积性函数设积性函数f,有和函数 显然,F由f决定,这种关系是否可以反过来?  F(1) ... [详细]
  • DedeCMS栏目列表调用中currentstyle中也支持autoindex的方法
    在《DedeCMS自增函数autoindexitemindex用法全解析》中,余斗给大家详细说明了DedeCMS中的autoindex和itemindex的日常用法,而我们在DedeCMS建站过程中,调用顶级栏目之类的会用到currentstyle属性,来实现当 ... [详细]
  • JavaScript 中创建对象的多种方式
    本文介绍了 JavaScript 中创建对象的几种常见方法,包括字面量形式、构造函数、原型对象等。每种方法都有其特点和适用场景,通过对比分析,帮助开发者选择最适合的方式。 ... [详细]
  • 随着Redis功能的不断增强和稳定性提升,其应用范围日益广泛,成为软件开发人员不可或缺的技能之一。本文将深入探讨Redis集群的部署与优化,包括主从备份机制、哨兵模式以及集群功能,帮助读者全面理解并掌握Redis集群的应用。 ... [详细]
  • 本文详细介绍了游戏中胜场数和净胜场数的计算方式,通过公式解析和实例说明,帮助玩家更好地理解这两项统计数据。文章还提供了多种计算方法及其应用场景,确保读者能够全面掌握相关知识。 ... [详细]
  • 华为Mate 60 Pro截屏指南
    了解如何在华为Mate 60 Pro上进行截屏操作。本文将详细介绍多种便捷的截屏方法,帮助用户快速掌握这一实用功能。 ... [详细]
  • 本教程将指导您如何运用Photoshop中的笔刷、路径等工具,通过高超的控制技巧,从简单图形出发,打造出令人惊艳的光束效果。适合有一定基础的用户进行尝试。 ... [详细]
  • 本文探讨了在使用Selenium进行自动化测试时,由于webdriver对象实例化位置不同而导致浏览器闪退的问题,并提供了详细的代码示例和解决方案。 ... [详细]
author-avatar
摩羯参议院1314
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有